## X fixed.acidity volatile.acidity citric.acid residual.sugar chlorides
## 1 1 7.4 0.70 0.00 1.9 0.076
## 2 2 7.8 0.88 0.00 2.6 0.098
## 3 3 7.8 0.76 0.04 2.3 0.092
## 4 4 11.2 0.28 0.56 1.9 0.075
## 5 5 7.4 0.70 0.00 1.9 0.076
## 6 6 7.4 0.66 0.00 1.8 0.075
## free.sulfur.dioxide total.sulfur.dioxide density pH sulphates alcohol
## 1 11 34 0.9978 3.51 0.56 9.4
## 2 25 67 0.9968 3.20 0.68 9.8
## 3 15 54 0.9970 3.26 0.65 9.8
## 4 17 60 0.9980 3.16 0.58 9.8
## 5 11 34 0.9978 3.51 0.56 9.4
## 6 13 40 0.9978 3.51 0.56 9.4
## quality
## 1 5
## 2 5
## 3 5
## 4 6
## 5 5
## 6 5
## [1] "X" "fixed.acidity" "volatile.acidity"
## [4] "citric.acid" "residual.sugar" "chlorides"
## [7] "free.sulfur.dioxide" "total.sulfur.dioxide" "density"
## [10] "pH" "sulphates" "alcohol"
## [13] "quality"
## 'data.frame': 1599 obs. of 13 variables:
## $ X : int 1 2 3 4 5 6 7 8 9 10 ...
## $ fixed.acidity : num 7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
## $ volatile.acidity : num 0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
## $ citric.acid : num 0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
## $ residual.sugar : num 1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
## $ chlorides : num 0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
## $ free.sulfur.dioxide : num 11 25 15 17 11 13 15 15 9 17 ...
## $ total.sulfur.dioxide: num 34 67 54 60 34 40 59 21 18 102 ...
## $ density : num 0.998 0.997 0.997 0.998 0.998 ...
## $ pH : num 3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
## $ sulphates : num 0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
## $ alcohol : num 9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
## $ quality : int 5 5 5 6 5 5 5 7 7 5 ...
## X fixed.acidity volatile.acidity citric.acid
## Min. : 1.0 Min. : 4.60 Min. :0.1200 Min. :0.000
## 1st Qu.: 400.5 1st Qu.: 7.10 1st Qu.:0.3900 1st Qu.:0.090
## Median : 800.0 Median : 7.90 Median :0.5200 Median :0.260
## Mean : 800.0 Mean : 8.32 Mean :0.5278 Mean :0.271
## 3rd Qu.:1199.5 3rd Qu.: 9.20 3rd Qu.:0.6400 3rd Qu.:0.420
## Max. :1599.0 Max. :15.90 Max. :1.5800 Max. :1.000
## residual.sugar chlorides free.sulfur.dioxide
## Min. : 0.900 Min. :0.01200 Min. : 1.00
## 1st Qu.: 1.900 1st Qu.:0.07000 1st Qu.: 7.00
## Median : 2.200 Median :0.07900 Median :14.00
## Mean : 2.539 Mean :0.08747 Mean :15.87
## 3rd Qu.: 2.600 3rd Qu.:0.09000 3rd Qu.:21.00
## Max. :15.500 Max. :0.61100 Max. :72.00
## total.sulfur.dioxide density pH sulphates
## Min. : 6.00 Min. :0.9901 Min. :2.740 Min. :0.3300
## 1st Qu.: 22.00 1st Qu.:0.9956 1st Qu.:3.210 1st Qu.:0.5500
## Median : 38.00 Median :0.9968 Median :3.310 Median :0.6200
## Mean : 46.47 Mean :0.9967 Mean :3.311 Mean :0.6581
## 3rd Qu.: 62.00 3rd Qu.:0.9978 3rd Qu.:3.400 3rd Qu.:0.7300
## Max. :289.00 Max. :1.0037 Max. :4.010 Max. :2.0000
## alcohol quality
## Min. : 8.40 Min. :3.000
## 1st Qu.: 9.50 1st Qu.:5.000
## Median :10.20 Median :6.000
## Mean :10.42 Mean :5.636
## 3rd Qu.:11.10 3rd Qu.:6.000
## Max. :14.90 Max. :8.000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 3.000 5.000 6.000 5.636 6.000 8.000
##
## 3 4 5 6 7 8
## 10 53 681 638 199 18
# 创建一个直方图公共函数,后简化代码量
wine_plot <- function(varname, binwidth) {
return (ggplot(aes_string(x = varname), data = pf_wine) +
geom_histogram(binwidth = binwidth))
}
从图中可以看出红葡萄酒的质量大部分集中在5和6中,红葡萄酒的质量正态分布
固定酸度大部分集中在6.5和9.5之间。
挥发性酸度大部分集中在0.25和0.75之间。
柠檬酸程右偏态分布,大部分集中在0和0.55之间。从表中可以看出存在有很多为0的数据的 异常值,还有后面有个1的异常值。
残留糖呈右偏态分布,大部分集中在1.5和3之间。有个别值比较异常,超出集中区域很多, 超出9的比较异常,可以去掉
氯化物呈右偏态分布,大部分集中在0.05和0.125之间。有个别值比较异常,超出集中区域 很多,超出0.3的比较异常,可以去掉
游离二氧化呈右偏态分布,有个别值比较异常,超出集中区域很多,超出60的比较异常, 可以去掉
总二氧化硫呈右偏态分布,有个别值比较异常,超出集中区域很多,超出170的比较异常, 可以去掉
二氧化硫呈右偏态分布,,超出集中区域很多,超出140的比较异常,可以去掉
密度呈正态分布
PH呈正态分布,大部分集中3.0和3.6之间
硫酸盐呈右偏态分布
酒精呈右偏态分布
我初始数据集有1499条数据,13个变量; 整理后的数据集有1433条数据,14个变量;
我兴趣的特征有以下几个 1:红酒质量quality; 2:新变量sulfur.dioxide(二氧化硫),从网上查的资料二氧化硫有杀菌、抗氧化、澄清酒液 和提高色素和酚类物质含量等多重作用; 3:alcohol(酒精度),酒都有酒精度数 4:酸度,喝过红酒,红酒有点酸涩的味道。 5:甜度(residual sugar)
我认为硫酸盐(sulphates)也有关系 ### 根据数据集内已有变量,你是否创建了任何新变量? 有创建新变量sulfur.dioxide(二氧化硫) ### 在已经探究的特性中,是否存在任何异常分布?你是否对数据进行一些操作,如清洁、调整或改变数据的形式?如果是,你为什么会这样做? 在探索数据集过程中,发现citric.acid存在有很多为0的数据的异常值,还有后面有个1的 异常值;residual.sugar有个别值比较异常,超出集中区域很多,超出9的比较异常; chlorides有个别值比较异常,超出集中区域很多,超出0.3的比较异常,因为异常数据 比较少,还有为0的数据不可能,所以我把这些数据都清理掉。
残留糖(residual sugar),硫酸盐(sulphates),酒精(alcohol)跟质量(quality)正相关性, 其中酸度的volatile.acidity(挥发性酸度跟质量(quality)负相关,新变量sulfur.dioxide (二氧化硫)跟质量(quality)负相关
从图中看出固定酸度(fixed acidity)和质量(quality)关联性不大
从图中看出质量(quality)越高的红酒相对的挥发性酸度(volatile.acidity)的中位数越小, 质量越好的红酒,挥发性酸度越小
从图中看出质量(quality)越高的红酒相对的柠檬酸(citric acid)的中位数越多,
从图中看出质量(quality)与新变量二氧化硫(sulfur.dioxide)关联性不大
从图中看出质量(quality)越高的红酒相对的硫酸盐(sulphates)的中位数越多,上升不大, 基本上都在1.0以下
从图中酒精(alcohol)越大,红酒质量(quality)越好
从图中看出质量(quality)越高的红酒相对的酒精(alcohol)的中位数越多,越好的红酒需要 酒精度越高
从图中看出残留糖(residual.sugar)和质量(quality)关系关联性不大,基本上红酒残留糖 (residual.sugar)的中位数都在2.5以下,四分位数Q3在2.7以下,红酒都是需要糖分不多,
从图中酒精(alcohol)越大,挥发性酸度(volatile.acidity)越小
从图中酒精(alcohol)越大,柠檬酸(citric acid)越大
从图中酒精(alcohol)越大,挥发性酸度(volatile.acidity)越大,集中在0.4~0.9之间
从上面几个图分析,我感兴趣的特征与质量(quality)的关系 1:酸度的三个变量(固定酸度(fixed acidity)、挥发性酸度(volatile.acidity)、 柠檬酸(citric acid)),固定酸度fixedacidity与质量(quality)关联性不大, 挥发性酸度(volatile.acidity)与质量(quality)负相关,柠檬酸(citricacid)与 质量(quality)正相关,在酸度三个变量中与quality相关最大;不过柠檬酸(citricacid)的 相关性基本上都在1.0以下; 2:新变量sulfur.dioxide(二氧化硫)与质量(quality)关联性不大 3:酒精(alcohol)与质量(quality)正相关关系,在这些特征里面相关性最大的; 4:残留糖(residual.sugar)和质量(quality)关系关联性不大,基本上红酒 残留糖(residual.sugar)的中位数都在2.5以下,四分位数Q3在2.7以下,红酒都是需要糖分不多, 可以看出对红酒影响比较大的是挥发性酸度(volatile.acidity)、柠檬酸(citricacid)、 硫酸盐(sulphates)、酒精(alcohol)这四个变量。
从上面分析可以看出对红酒影响比较大的是挥发性酸度(volatile.acidity)、 柠檬酸(citric acid)、硫酸盐(sulphates)、酒精(alcohol)这四个变量,所以我分析了 挥发性酸度(volatile.acidity)、柠檬酸(citricacid)、硫酸盐(sulphates)分别与 酒精(alcohol)之间的关系。
我发现是酒精(alcohol)跟质量(quality)有很强的正相关,挥发性酸度(volatile.acidity) 跟质量(quality)有很强的负相关。
从表中可以看出挥发性酸度(volatile acidity)跟柠檬酸(citric acid)发比关系,质量越好的红酒需要的挥发性酸度(volatile acidity)越小, 柠檬酸(citric acid)越大
从表中可以看出硫酸盐(sulphates)跟柠檬酸(citric acid)正比关系,质量越好的红酒需要硫酸盐(sulphates)越大,柠檬酸(citric acid)越大
从表中可以看出硫酸盐(sulphates)跟挥发性酸度(volatile acidity)反比关系,质量(quality)越好的红酒硫酸盐(sulphates)越大, 挥发性酸度(volatile acidity)越小
从表中可以看出硫酸盐(sulphates)跟酒精(alcohol)正比比关系,质量(quality)越好的 红酒硫酸盐(sulphates)越大,酒精(alcohol)越高
在分析中发现 1:看出挥发性酸度(volatile acidity)跟柠檬酸(citric acid)发比关系,质量越好的红酒需要的挥发性酸度(volatile acidity)越小, 柠檬酸(citric acid)越大; 2:硫酸盐(sulphates)跟柠檬酸(citric acid)正比关系,质量越好的红酒需要硫酸盐(sulphates)越大,柠檬酸(citric acid)越大; 3:硫酸盐(sulphates)跟挥发性酸度(volatile acidity)反比关系,质量(quality)越好的红酒硫酸盐(sulphates)越大, 挥发性酸度(volatile acidity)越小; 4:硫酸盐(sulphates)跟酒精(alcohol)正比比关系,质量(quality)越好的红酒 硫酸盐(sulphates)越大,酒精(alcohol)越高
挥发性酸度(volatile acidity)跟柠檬酸(citric acid)有很强负关系,挥发性酸度越小, 红酒质量越好 ### 选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。 没有创建数据集的模型 ——
分析酒精(alcohol)和质量(quality)关系
从图中看出质量(quality)越高的红酒相对的酒精(alcohol)的中位数越多, 越好的红酒需要酒精度越高
分析挥发性酸度(volatile acidity)、柠檬酸(citric acid)与质量(quality)的关系
从图中看出质量(quality)越高的红酒需要的挥发性酸度(volatile acidity)越小, 而柠檬酸(citric acid)越多;
分析硫酸盐(sulphates)、柠檬酸(citric acid)与质量(quality)的关系
通过数据集有1499条数据,13个变量;整理后的数据集有1433条数据,14个变量, 还有新增了变量新变量sulfur.dioxide(二氧化硫),从网上查的资料二氧化硫有杀菌、 抗氧化、澄清酒液和提高色素和酚类物质含量等多重作用,但是实际绘图 sulfur.dioxide(二氧化硫)对红酒质量影响不大,通过单变量绘图到多变量绘图分析, 得出对红酒影响比较大的几个变量是挥发性酸度(volatile.acidity)、 柠檬酸(citric acid)、硫酸盐(sulphates)、酒精(alcohol)这四个变量; 通过对这个四个变量的分析得出: 1:质量高的红酒需要挥发性酸度(volatile.acidity)极小; 2:质量高的红酒需要较多的柠檬酸(citric acid); 3:质量高的红酒需要较多的硫酸盐(sulphates); 4:质量高的红酒需要酒精(alcohol)的酒精度高; 在分析过程中,高质量(quality)(7、8)的数据比较少,对分析存在一定影响, 可能分析不够准确;绘图的时候发现质量8的关系线条跟其他质量的关系线条有偏差;
在分析过程中高质量(7、8)的红酒数据量较少,比较难分析出哪些变量对红酒有影响;
在分析过程中发现挥发性酸度(volatile.acidity)跟酒精(alcohol)对红酒的影响较大。
高质量(7、8)的红酒数据量较少,导致分析不太理想,后续应该对数据建模,创建预测 红酒的质量的模型。